O presente trabalho apresenta uma Análise Exploratória de Dados de um conjunto de dados, composto por tipos de vinho branco e suas propriedades químicas. O objetivo deste trabalho é responder a seguinte pergunta:
Quais propriedades químicas influenciam a qualidade dos vinhos brancos?
Sumário:
1 Análise Univariada
1.1 Resumo do Dataset
1.2 Descrição das Variáveis
1.3 Observações
1.4 Insights Interessantes
1.5 Criação de Variáveis Auxiliares
1.6 Seção de Gráficos Univariados
1.7 Análise Univariada - Perguntas
2 Análise Bivariada
2.1 Limpeza dos Dados
2.2 Analisando o Relacionamento entre Variáveis
2.3 Análise de Correlações de Interesse
2.4 Seção de Gráficos Bivariados
2.5 Analisando o Relacionamento entre as demais Variáveis
2.6 Insights Interessantes
2.7 Análise Bivariada - Perguntas
3 Análise Multivariada
3.1 Tranformação dos Dados e Criação de Variáveis
3.2 Seção de Gráficos Multivariados
3.3 Análise Multivariada - Perguntas
4 Gráficos Finais e Sumário
4.1 Primeiro Gráfico
4.2 Descrição do Primeiro Gráfico
4.3 Segundo Gráfico
4.4 Descriçnao do Segundo Gráfico
4.5 Terceiro Gráfico
4.6 Descrição do Terceiro Gráfico
5 Reflexão
Referências Utilizadas
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1 Min. : 3.800 Min. :0.0800 Min. :0.0000
## 1st Qu.:1225 1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700
## Median :2450 Median : 6.800 Median :0.2600 Median :0.3200
## Mean :2450 Mean : 6.855 Mean :0.2782 Mean :0.3342
## 3rd Qu.:3674 3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900
## Max. :4898 Max. :14.200 Max. :1.1000 Max. :1.6600
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.600 Min. :0.00900 Min. : 2.00
## 1st Qu.: 1.700 1st Qu.:0.03600 1st Qu.: 23.00
## Median : 5.200 Median :0.04300 Median : 34.00
## Mean : 6.391 Mean :0.04577 Mean : 35.31
## 3rd Qu.: 9.900 3rd Qu.:0.05000 3rd Qu.: 46.00
## Max. :65.800 Max. :0.34600 Max. :289.00
## total.sulfur.dioxide density pH sulphates
## Min. : 9.0 Min. :0.9871 Min. :2.720 Min. :0.2200
## 1st Qu.:108.0 1st Qu.:0.9917 1st Qu.:3.090 1st Qu.:0.4100
## Median :134.0 Median :0.9937 Median :3.180 Median :0.4700
## Mean :138.4 Mean :0.9940 Mean :3.188 Mean :0.4898
## 3rd Qu.:167.0 3rd Qu.:0.9961 3rd Qu.:3.280 3rd Qu.:0.5500
## Max. :440.0 Max. :1.0390 Max. :3.820 Max. :1.0800
## alcohol quality
## Min. : 8.00 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.40 Median :6.000
## Mean :10.51 Mean :5.878
## 3rd Qu.:11.40 3rd Qu.:6.000
## Max. :14.20 Max. :9.000
## X fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1 1 7.0 0.27 0.36 20.7 0.045
## 2 2 6.3 0.30 0.34 1.6 0.049
## 3 3 8.1 0.28 0.40 6.9 0.050
## 4 4 7.2 0.23 0.32 8.5 0.058
## 5 5 7.2 0.23 0.32 8.5 0.058
## 6 6 8.1 0.28 0.40 6.9 0.050
## free.sulfur.dioxide total.sulfur.dioxide density pH sulphates alcohol
## 1 45 170 1.0010 3.00 0.45 8.8
## 2 14 132 0.9940 3.30 0.49 9.5
## 3 30 97 0.9951 3.26 0.44 10.1
## 4 47 186 0.9956 3.19 0.40 9.9
## 5 47 186 0.9956 3.19 0.40 9.9
## 6 30 97 0.9951 3.26 0.44 10.1
## quality
## 1 6
## 2 6
## 3 6
## 4 6
## 5 6
## 6 6
Fixed.acidity:
Maioria dos ácidos envolvidos com vinho ou fixos ou não voláteis (não evaporam prontamente).
Volatile.acidity:
Quantidade de ácido acético no vinho, que em níveis muito altos pode levar a um gosto desagradável de vinagre.
Citric.acid:
Encontrado em pequenas quantidades, o ácido cítrico pode adicionar “frescor” e sabor aos vinhos.
Residual.sugar:
Quantidade de açúcar restante após a fermentação parar. É raro encontrar vinhos com menos de 1 grama/litro e vinhos com mais de 45 gramas/litro são considerados doces.
Chlorides:
Quantidade de sal no vinho.
Free.sulfur.dioxide:
Forma livre de SO2, existe em equilíbrio entre o SO2 molecular (como gás dissolvido) e o íon bissulfito. Impede o crescimento microbiano e a oxidação do vinho.
Total.sulfur.dioxide:
Quantidade de formas livres e combinadas de S02; em baixas concentrações, o SO2 é quase indetectável no vinho, mas nas concentrações de SO2 livre acima de 50 ppm, o SO2 se torna evidente no nariz e no sabor do vinho.
Density:
A densidade é próxima à da água, dependendo do percentual de álcool e teor de açúcar.
pH:
Descreve como o vinho é acído ou básico numa escala de 0 (muito ácido) a 14 (muito básico). A maioria dos vinhos está entre 3-4 na escala de pH.
Sulphates:
Aditivo de vinho que pode contribuir para os níveis de gás de dióxido de enxofre (S02), que age como um antimicrobiano e antioxidante.
Alcohol:
Teor alcoólico percentual do vinho.
Quality:
Qualidade do vinho, pontuada entre 0 e 10.
Conforme é possível observar nos outputs de resumo do dataset (Data_Summary), o atributo qualidade oscila entre as notas 3 e 9, apesar de ser inicialmente um valor compreendido entre 1 e 10. Sua mediana é 6 e média 5.878. Em relação ao dioxido de enxofre livre, é possível observar que seu valor máximo é muito distante de sua mediana e média, gerando um ponto de atenção. A descrição de cada variável foi retirada do arquivo que descreve o dataset. A partir das informações nele contidas foram retirados alguns pontos de análise, descritos na seção Description_Attributes_Analysis.
##
## FALSE TRUE
## 4896 2
##
## FALSE TRUE
## 2468 2430
##
## FALSE TRUE
## 4897 1
##
## FALSE TRUE
## 4821 77
##
## FALSE TRUE
## 49 4849
A análise realizada acima foi feita a partir da descrição de cada atributo na documentação do dataset. Alguns filtros foram aplicados a fim de encontrar vinhos que possuam caracteristicas específicas, como por exemplo vinhos considerados doces, ou que tenham alta concentração de enxofre total, que influencia no paladar.
Considerando que o dioxido de enxofre no vinho será objeto de estudo deste trabalho (ver detalhes na pergunta 1.7.4), será criada a variavel bound.sulfur.dioxide, que representa o percentual de dioxido de enxofre combinado presente no vinho. Acredito que a analise desta variável possa apresentar resultados interessantes ao longo do projeto.
Nesta seção, são exibidos histogramas para cada variável do conjunto.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 2 rows containing missing values (geom_bar).
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
0 conjunto de dados é estruturado em 12 variáveis, sendo cada uma destas uma caracteristica do vinho analisado. As colunas são estas: acidez fixa, acidez volátil, ácido cítrico, açúcar residual, cloretos, dióxido de enxofre livre, total de enxofre livre, densidade, pH, sulfatos, alcool, qualidade, sendo esta última a nota atribuída ao vinho. O conjunto de dados possui 4898 amostras.
O principal atributo de interesse é a variável qualidade. Com o objetivo de garantir uma boa qualidade este projeto, realizei uma pesquisa sobre qualidade de vinhos na internet. Considerando a pesquisa realizada, acredito que alguns possíveis atributos de interesse sejam o alcool e a acidez do vinho, descrita nas colunas acidez fixa e acidez volátil. Segundo publicação na revista Adega em maio de 2019, alcool e acidez de um vinho são considerados elementos cruciais para sua qualidade. Além disso, uma publicação da mesma revista em maio de 2008 alerta para os riscos na qualidade de um vinho que o dioxide de enxofre em altas quantidades pode acarretar. Por isso, acredito que variáveis relativas a SO2 também representam atributos de interesse.
Referência: https://revistaadega.uol.com.br/artigo/o-alcool-e-acidez-dos-vinhos_6055.html https://revistaadega.uol.com.br/artigo/o-papel-do-dioxido-de-enxofre-so2-nos-vinhos_8165.html
Considerando que demais componentes quimicos do vinho influenciam em sua acidez e alcool, acredito em principio que todas as demais variáveis do conjunto possam auxiliar nesta investigação.
Foi criada a variavel bound.sulfur.dioxide a partir da difereça entre as variáveis total.sulfur.dioxide e free.sulfur.dioxide.
Com exceção do atributo açucar residual, os demais seguem a distribuição normal. Ainda não foram aplicadas operações de limpeza nos dados, sua necessidade será analizada na Seção de Gráficos Bivariados.
Nesta seção, o relacionamento entre as variáveis de interesse será analisado através do cálculo da correlação. Inicialmente, foram analisadas as relações entre qualidade e acidez fixa, acidez volatil e alcool. Foram criados os sub-grupos de variáveis conforme abaixo:
Os gráficos abaixo mostram a correlação observada em cada sub-grupo.
Em seguida, foram analisadas as relações entre qualidade e dioxido de enxofre. Foram criados os sub-grupos de variáveis conforme abaixo:
Os gráficos abaixo mostram a correlação observada em cada sub-grupo.
Conforme é possível observar nos graficos do chunk acima, foram obtidos os seguintes valores de correlações:
A maior correlação identificada foi entre as variáveis quality e alcohol, mas ainda sim esta não pode ser considera uma correlação positiva forte. A correlação entre qualidade e as variaveis de acidez é negativa, o que sugere que quando a acidez aumenta, a qualidade do vinho diminui. Esta correlação também não é forte. Em relação as correlações entre qualidade e as variaveis de dioxido de enxofre, encontramos duas informações relevantes. Primeiramente, temos como a correlação mais fraca da lista a entre a qualidade e o dioxido de enxofre livre. Segundamente, de todas as variaveis de enxofre, a que possui maior correlação com a qualidade é a dioxido de enxofre combinado, variável anteriormente calculada. A correlação da qualidade com estas variáveis também é negativa, sugerindo uma piora na qualidade do vinho quando o percentual de dioxido de enxofre aumenta.
Nenhuma das correlações obtidas pode ser considerada forte.
Vamos agora, analisar o relacionamento da qualidade com as demais variáveis do cojunto, em busca de outros relacionamentos interessantes.
Conforme é possível observar nos graficos do chunk acima, foram obtidos os seguintes valores de correlações:
A maior correlação identificada foi entre qualidade e densidade.
O relacionamento mais interessante identificado foi entre a qualidade e o alcool. Com uma correlação média positiva, a análise sugere que vinhos com maiores percentuais de alcool tendem a ter uma qualidade acima média. Com análises de outras atributos, foi identificado que o a variável densidade também possui uma correlação positiva com a qualidade do vinho. Foi observado que as variaveis qualidade e acidez (fixa e volatil) são inversamente proporcionais, o que sugere que quando a acidez aumenta, a qualidade do vinho diminui. Este relacionamento foi medido pela correlação entre as variaveis, que não é classificado como forte. Além disso, foi observado que as variaveis qualidade e dioxido de enxofre (livre, combinado, total) também são inversamente proporcionais, sugerindo uma piora na qualidade do vinho quando o percentual de dioxido de enxofre aumenta.
Foi observado que de todas as variaveis de enxofre, a que possui relacionamento mais forte com a qualidade é a dioxido de enxofre combinado. Além disso, foi identificado que qualidade e densidade também possuem um relacionamento forte.
Entre as variáveis qualidade e alcool.
Nesta seção, serão analisadas os relacionamentos entre os atributos abaixo: qualidade, densidade, alcool e dioxido de enxofre combinado. Estes atributos foram os escolhidos por apresentarem relacionamento mais significativo com a qualidade do vinho, de acordo com as análises efetuadas na seção anterior.
Para realizar as análise dos atributos de interesse escolhidos, serão criadas novas variáveis, que representam versões categorizadas destes atributos. Os atributos criados serão utilizados conforme necessidade. Os atributos serão categorizados conforme abaixo:
## 0% 25% 50% 75% 100%
## 0.9871100 0.9917225 0.9937400 0.9961000 1.0389800
## 0% 25% 50% 75% 100%
## 8.0 9.5 10.4 11.4 14.2
## 0% 25% 50% 75% 100%
## 4 78 100 125 331
Serão criadas as variáveis density.category, alcohol.category, bound.sulfur.dioxide.category
A seguir será feita a análise simultanea das variáveis alcool, densidade e dioxido de enxofre combinado. Foi omitido 1% da variável densidade e suas fronteiras para facilitar a visualização dos dados.
## Warning: Removed 99 rows containing missing values (geom_point).
Conforme é possível observar not plot acima, o dioxido de enxofre combinado em grandes quantidades é identificado majoritariamente em vinhos de densidade alta e percentual de alcool abaixo dos 10%.
Vinhos com percentual acima dos 12%, considerado alto, apresentam em sua maioria uma baixa concentração de dioxido de enxofre combinado.
## Warning: Removed 98 rows containing missing values (geom_point).
No gráfico acima, é possível confirmar a relação forte encontrada na seção 2 entre qualidade e alcool. É possível notar que os vinhos de qualidade considerada boa, com notas entre 7 e 9, são encontrados majoriatiamente na area do gráfico respectiva aos vinhos cujo percentual de alcool se aproxima dos 13%. Além disso, confirmarmos a correlação negativa entre qualidade e densidade: vinhos com qualidade considerada baixa são encontrados majoritariamente em densidades maiores que 0.992 g/cm^3.
Os atributos criados nesta seção para categorizar as variáveis de interesse foram extremamente importantes para fortalecer as observações realizadas anteriormente nas variáveis de interesse. Com eles, foi possível confirmar graficamente algumas das suposições levantadas na seção dois após a análise de relacionamentos.
Foi interessante de perceber a relação inversa que existe entre o alcool e o dioxido de enxofre combinado, pois na presença de um percentual de alcool grande no vinho, esta variavel aparece majoritariamente em concentrações pequenas. Seria isto efeito de alguma reação química?
Os gráficos de correlação plotados acima representam as duas relações mais fortes com a qualidade do vinho identificadas. A primeira, positiva, indica que quanto maior o percentual de alcool no vinho, melhor ele tende a ser. A segunda, negativa, indica que quanto maior a densidade do vinho, pior tende a ser sua qualidade. Estes relacionamentos foram inicialmente identificados na seção 2 e estudados mais profundamente na seção 3.
## Warning: Removed 99 rows containing missing values (geom_point).
O gráfico acima é bastante interessante, pois expressa como as principais variáveis que relacionamentos a qualidade do vinho interagem entre si. Foi possível observar que o dioxido de enxofre combinado em grandes quantidades é identificado majoritariamente em vinhos de densidade alta e percentual de alcool abaixo dos 10%.
Vinhos com percentual acima dos 12%, considerado alto, apresentam em sua maioria uma baixa concentração de dioxido de enxofre combinado.
## Warning: Removed 98 rows containing missing values (geom_point).
O gráfico acima confirma a relação forte encontrada na seção 2 entre qualidade e alcool. É possível notar que os vinhos de qualidade considerada boa, com notas entre 7 e 9, são encontrados majoriatiamente na area do gráfico respectiva aos vinhos cujo percentual de alcool se aproxima dos 13%. Além disso, confirmarmos a correlação negativa entre qualidade e densidade: vinhos com qualidade considerada baixa são encontrados majoritariamente em densidades maiores que 0.992 g/cm^3.
Inicialmente, foram observadas características de cada variável do conjunto separadamente, a fim de identificar insights através de consultas iniciais nos dados. A partir disso e considerando uma rápida pesquisada sobre vinhos realizada, as variáveis respectivas a alcool, acidez e dioxido de enxofre foram selecionadas como de interesse, para uma análise mais aprofundada na seção 2.
Em seguida, a relação dessas variáveis com a qualidade do vinho foi avaliada, onde foram encontradas correlações positivas e negativas. Além disso, em análises auxiliares a variável densidade também se tornou uma variável de interesse.
Na seção 3, decidi aprofundar a análise nas variáveis alcool, densidade e dioxido de enxofre combinado, criando a partir delas variáveis que categorizavam os dados. Estas variáveis foram extremamente importantes, pois embasaram as suposições levantadas na seção 2, possibilitando um bom entendimento do que esta por trás da qualidade de um vinho.
O projeto de Análise Exploratória de Dados foi extremamente desafiador, mas acredito que a pergunta-chave proposta pode ser respondida com êxito. Mesmo conhecendo pouco sobre vinhos, tive a oportunidade de compreender como as propriedades químicas do vinho influenciam sua qualidade a partir do conjunto de dados analisado. Foi uma experiência bastante gratificante e que me inspirou a futuramente realizar um EDA de dados dos quais possua mais conhecimento prévio, como por exemplo o setor financeiro.
https://revistaadega.uol.com.br/artigo/o-alcool-e-acidez-dos-vinhos_6055.html
https://revistaadega.uol.com.br/artigo/o-papel-do-dioxido-de-enxofre-so2-nos-vinhos_8165.html
https://stackoverflow.com/questions/10085806/extracting-specific-columns-from-a-data-frame
https://www.rdocumentation.org/packages/GGally/versions/1.4.0/topics/ggpairs
http://www.dmstat1.com/res/TheCorrelationCoefficientDefined.html
http://www.sthda.com/english/wiki/ggplot2-title-main-axis-and-legend-titles